The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .
translated by 谷歌翻译
In this paper, we are interested in learning a generalizable person re-identification (re-ID) representation from unlabeled videos. Compared with 1) the popular unsupervised re-ID setting where the training and test sets are typically under the same domain, and 2) the popular domain generalization (DG) re-ID setting where the training samples are labeled, our novel scenario combines their key challenges: the training samples are unlabeled, and collected form various domains which do no align with the test domain. In other words, we aim to learn a representation in an unsupervised manner and directly use the learned representation for re-ID in novel domains. To fulfill this goal, we make two main contributions: First, we propose Cycle Association (CycAs), a scalable self-supervised learning method for re-ID with low training complexity; and second, we construct a large-scale unlabeled re-ID dataset named LMP-video, tailored for the proposed method. Specifically, CycAs learns re-ID features by enforcing cycle consistency of instance association between temporally successive video frame pairs, and the training cost is merely linear to the data size, making large-scale training possible. On the other hand, the LMP-video dataset is extremely large, containing 50 million unlabeled person images cropped from over 10K Youtube videos, therefore is sufficient to serve as fertile soil for self-supervised learning. Trained on LMP-video, we show that CycAs learns good generalization towards novel domains. The achieved results sometimes even outperform supervised domain generalizable models. Remarkably, CycAs achieves 82.2% Rank-1 on Market-1501 and 49.0% Rank-1 on MSMT17 with zero human annotation, surpassing state-of-the-art supervised DG re-ID methods. Moreover, we also demonstrate the superiority of CycAs under the canonical unsupervised re-ID and the pretrain-and-finetune scenarios.
translated by 谷歌翻译
我们提出了一个我们命名肖像解释的任务,并为其构建一个名为Portrait250k的数据集。当前关于人类属性认可和人重新识别等肖像的研究取得了许多成功,但通常,它们:1)可能缺乏各种任务与可能带来的可能利益之间的相互关系; 2)专门为每个任务设计的深层模型,这效率低下; 3)可能无法满足统一模型的需求和实际场景中的全面感知。在本文中,拟议的肖像解释从新的系统角度认识到人类的感知。我们将肖像的感知分为三个方面,即外观,姿势和情感,以及设计相应的子任务。基于多任务学习的框架,肖像解释需要对静态属性和肖像的动态状态进行全面描述。为了激发有关这项新任务的研究,我们构建了一个新数据集,其中包含25万张图像,上面标有身份,性别,年龄,体质,身高,表达和整个身体和手臂的姿势。我们的数据集是从51部电影中收集的,因此涵盖了广泛的多样性。此外,我们专注于表示肖像解释的表示,并提出了反映我们系统观点的基线。我们还为此任务提出了适当的指标。我们的实验结果表明,结合与肖像解释有关的任务可以产生好处。代码和数据集将公开。
translated by 谷歌翻译
6-DOF GRASP姿势检测多盖和多对象是智能机器人领域的挑战任务。为了模仿人类的推理能力来抓住对象,广泛研究了数据驱动的方法。随着大规模数据集的引入,我们发现单个物理度量通常会产生几个离散水平的掌握置信分数,这无法很好地区分数百万的掌握姿势并导致不准确的预测结果。在本文中,我们提出了一个混合物理指标来解决此评估不足。首先,我们定义一个新的度量标准是基于力闭合度量的,并通过对象平坦,重力和碰撞的测量来补充。其次,我们利用这种混合物理指标来产生精致的置信度评分。第三,为了有效地学习新的置信度得分,我们设计了一个称为平面重力碰撞抓氏(FGC-Graspnet)的多分辨率网络。 FGC-GRASPNET提出了多个任务的多分辨率特征学习体系结构,并引入了新的关节损失函数,从而增强了GRASP检测的平均精度。网络评估和足够的实际机器人实验证明了我们混合物理指标和FGC-GraspNet的有效性。我们的方法在现实世界中混乱的场景中达到了90.5 \%的成功率。我们的代码可在https://github.com/luyh20/fgc-graspnet上找到。
translated by 谷歌翻译
由于视频帧之间的庞大本地冗余和复杂的全局依赖性,这是一种具有挑战性的任务。该研究的最近进步主要由3D卷积神经网络和视觉变压器推动。虽然3D卷积可以有效地聚合本地上下文来抑制来自小3D邻域的本地冗余,但由于接收领域有限,它缺乏捕获全局依赖性的能力。或者,视觉变压器可以通过自我关注机制有效地捕获远程依赖性,同时具有在每层中所有令牌之间的盲目相似性比较来降低本地冗余的限制。基于这些观察,我们提出了一种新颖的统一变压器(统一机),其以简洁的变压器格式无缝地整合3D卷积和时空自我关注的优点,并在计算和准确性之间实现了优选的平衡。与传统的变形金刚不同,我们的关系聚合器可以通过在浅层和深层中学习本地和全球令牌亲和力来解决时空冗余和依赖性。我们对流行的视频基准进行了广泛的实验,例如动力学-400,动力学-600,以及某种东西 - 某种东西 - 某种东西 - 某种东西 - 某种东西。只有ImageNet-1K预磨料,我们的统一器在动力学-400 /动力学-600上实现了82.9%/ 84.8%的前1个精度,同时需要比其他最先进的方法更少的gflops。对于某些东西而言,我们的制服分别实现了新的最先进的表演,分别实现了60.9%和71.2%的前1个精度。代码可在https://github.com/sense-x/uniformer获得。
translated by 谷歌翻译
基于聚类的无监督域自适应(UDA)人重新识别(Reid)可减少详尽的注释。然而,由于嵌入不良的功能嵌入和不完美的聚类,目标域数据的伪标签本身包含错误的错误比例,这将误导特色。在本文中,我们提出了一种名为概率不确定性的方法,用于域自适应人员重新识别域的概率不确定性引导逐行标签炼油厂(P $ ^ 2 $ LR)。首先,我们建议将标记不确定性与概率距离一起模拟,以及理想的单峰分布。建立定量标准以测量伪标签的不确定性,并促进网络培训。其次,我们探索精炼伪标签的渐进战略。凭借不确定性引导的替代优化,我们在目标域数据探索与嘈杂标签的负面影响之间平衡。在强大的基线之上,我们获得了重大改进,实现了四个UDA Reid基准的最先进的表现。具体而言,我们的方法在Duke2market任务上占据了6.5%地图的基线,同时超过了最先进的方法,在Market2MSMT任务上将最先进的方法映射到2.5%地图。
translated by 谷歌翻译
视觉变压器(VITS)已成为各种视觉任务的流行结构和优于卷积神经网络(CNNS)。然而,这种强大的变形金机带来了巨大的计算负担。而这背后的基本障碍是排气的令牌到令牌比较。为了缓解这一点,我们深入研究Vit的模型属性,观察到VITS表现出稀疏关注,具有高令牌相似性。这直观地向我们介绍了可行的结构不可知的尺寸,令牌编号,以降低计算成本。基于这一探索,我们为香草vits提出了一种通用的自我切片学习方法,即坐下。具体而言,我们首先设计一种新颖的令牌减肥模块(TSM),可以通过动态令牌聚集来提高VIT的推理效率。不同于令牌硬滴,我们的TSM轻轻地集成了冗余令牌变成了更少的信息,可以在不切断图像中的鉴别性令牌关系的情况下动态缩放视觉注意。此外,我们介绍了一种简洁的密集知识蒸馏(DKD)框架,其密集地以柔性自动编码器方式传送无组织的令牌信息。由于教师和学生之间的结构类似,我们的框架可以有效地利用结构知识以获得更好的收敛性。最后,我们进行了广泛的实验来评估我们的坐姿。它展示了我们的方法可以通过1.7倍加速VITS,其精度下降可忽略不计,甚至在3.6倍上加速VITS,同时保持其性能的97%。令人惊讶的是,通过简单地武装LV-VIT与我们的坐线,我们在想象中实现了新的最先进的表现,超过了最近文学中的所有CNN和VITS。
translated by 谷歌翻译
自我关注已成为最近网络架构的一个组成部分,例如,统治主要图像和视频基准的变压器。这是因为自我关注可以灵活地模拟远程信息。出于同样的原因,研究人员最近使尝试恢复多层Perceptron(MLP)并提出一些类似MLP的架构,显示出极大的潜力。然而,当前的MLP样架构不擅长捕获本地细节并缺乏对图像和/或视频中的核心细节的逐步了解。为了克服这个问题,我们提出了一种新颖的Morphmlp架构,该架构专注于在低级层处捕获本地细节,同时逐渐改变,以专注于高级层的长期建模。具体地,我们设计一个完全连接的层,称为Morphfc,两个可变过滤器,其沿着高度和宽度尺寸逐渐地发展其接收领域。更有趣的是,我们建议灵活地调整视频域中的Morphfc层。为了我们最好的知识,我们是第一个创建类似MLP骨干的用于学习视频表示的骨干。最后,我们对图像分类,语义分割和视频分类进行了广泛的实验。我们的Morphmlp,如此自我关注的自由骨干,可以与基于自我关注的型号一样强大。
translated by 谷歌翻译
半监督学习旨在利用大量未标记的数据进行性能提升。现有工作主要关注图像分类。在本文中,我们深入了解对象检测的半监督学习,其中标记的数据更加劳动密集。目前的方法是由伪标签产生的嘈杂区域分散注意力。为了打击嘈杂的标签,我们通过量化区域不确定性提出抗噪声的半监督学习。我们首先调查与伪标签相关的不同形式的噪声带来的不利影响。然后,我们建议通过识别不同强度的区域的抗性特性来量化区域的不确定性。通过导入该地区不确定性量化和促进多跳概率分布输出,我们将不确定性引入训练和进一步实现抗噪声学习。 Pascal VOC和MS COCO两者的实验证明了我们的方法的特殊表现。
translated by 谷歌翻译
解决稀疏奖励的多目标强化学习(RL)问题通常是具有挑战性的。现有方法利用目标依赖收集的经验,以减轻稀疏奖励提出的问题。然而,这些方法仍然有效,无法充分利用经验。在本文中,我们提出了基于模型的后敏感体验重放(MIRH),通过利用环境动态来产生虚拟实现的目标,更有效地利用更有效的体验。用从训练有素的动态模型的交互中产生的虚拟目标替换原始目标导致一种新的重定相制方法,基于模型的重新标记(MBR)。基于MBR,MEHER执行加强学习和监督学习以获得高效的政策改进。从理论上讲,我们还证明了MBR数据的目标调节监督学习的监督部分,优化了多目标RL目标的下限。基于几个点的任务和模拟机器人环境的实验结果表明,MINHER比以前的无模型和基于模型的多目标方法实现显着更高的样本效率。
translated by 谷歌翻译